Correction de formulaires basée sur des machines pondérées à états finis Correction de formulaires basée sur des machines pondérées à états finis
نویسندگان
چکیده
Résumé : Pour être rendue plus démocratique, surtout dans les applications industrielles, la reconnaissance de caractères manuscrits a besoin d’atteindre de très hauts taux de reconnaissance. Pour cela, une correction dédiée à un problème particulier le permet de manière efficace, en modélisant l’information a priori disponible. Dans ce papier, nous présentons une méthode complète de compréhension de formulaires, avec une attention toute particulière sur une correction automatique à plusieurs niveaux. Basée sur une grammaire, définie en fonction des champs du formulaire à reconnaître, la correction utilise des machines à états finis modulaires, robustes et faciles d’implémentation. De plus, ces dernières permettent de relâcher le nombre de contraintes lié au remplissage du formulaire, rendant son utilisation plus facile. Finalement, des considérations pratiques sur la consommation mémoire et le temps de calcul pour un lexique de 40 000 entrées seront également énoncées.
منابع مشابه
Parsing images with finite state machines for object class segmentation and annotation Automates à états finis stochastiques pour l’annotation et la segmentation d’images en classes d’objets
We introduce in this work a stochastic inference process, for scene annotation and object class segmentation, based on finite state machines (FSMs). The design principle of our framework is generative and based on building, for a given scene, finite state machines that encode annotation lattices, and inference consists in finding and scoring the best configurations in these lattices. Different ...
متن کاملConstruction d'une ontologie à partir d'une base de données relationnelle : approche dirigée par l'analyse des formulaires HTML
RÉSUMÉ. L’émergence et la généralisation du Web dans tous les domaines, a permis à de nombreuses entreprises d’offrir une variété de services et d’informations en ligne, suscitant ainsi un réel besoin de partage et d’interopérabilité. Cela nécessite une infrastructure permettant à des agents logiciels d’exploiter, de composer et de raisonner sur les contenus constituants les ressources Web. Mal...
متن کاملPassage à l’échelle de la fouille vidéo basée sur la détection de copies
La structuration automatique des grandes bases de données multimédia à partir du contenu non textuel a de nombreuses applications potentielles et permet de pallier à l’absence d’annotations riches et fiables. Dans le cas particulier des grandes bases vidéo, des liens très utiles entre séquences vidéo sont mis en évidence par la détection de copies par le contenu (DCPC). En simplifiant, on consi...
متن کاملFiltered Composition and Markers for a Flexible Edit-Distance. Application to the Correction of Out-Of-Vocabulary Words
RÉSUMÉ. Nous présentons une implémentation flexible et originale de la distance d’édition : la composition filtrée, un type particulier de composition de deux machines à états finis au travers d’un filtre qui modélise l’ensemble des opérations d’édition valides. Le filtre est un transducteur pondéré ou une cascade de transducteurs pondérés. Il est obtenu par compilation de règles de réécriture ...
متن کاملON CURVES OVER FINITE FIELDS by
— In these notes we present some basic results of the Theory of Curves over Finite Fields. Assuming a famous theorem of A. Weil, which bounds the number of solutions in a finite field (i.e., number of rational points) in terms of the genus and the cardinality of the finite field, we then prove several other related bounds (bounds of Serre, Ihara, Stohr-Voloch, etc.). We then treat Maximal Curve...
متن کامل